@佛教经文分类Classification of Buddhist Verses

摘要

This study assesses the ability of machine learn-ing to classify verses from Buddhist texts into two categories: Therigatha and Theragatha, at-tributed to female and male authors, respec-tively. It highlights the difficulties in data pre-processing and the use of Transformer-based models on Devanagari script due to limited vo-cabulary, demonstrating that simple statistical models can be equally effective. The research suggests areas for future exploration, provides the dataset for further study, and acknowledges existing limitations and challenges.

  1. 研究目标:评估机器学习对Therigatha(女性作者)与Theragatha(男性作者)佛教经文的二分类能力
  2. 核心发现:
    • 传统统计模型(SVC/朴素贝叶斯)AUC达0.88-0.89,优于所有Transformer模型
    • Devanagari脚本因分词信息损失导致Transformer模型表现显著下降(AUC 0.76)
    • 两类经文词汇重叠度仅10%,传统模型通过类别特有词汇即可有效分类
  3. 数据公开:提供1793节预处理经文数据集(GitHub: neveditsin/pali)

引言

研究背景

  1. 文本特性:
    • Gatha为双行诗体,现存最早记载见于阿维斯塔经(公元前224-651年)
    • 巴利语背景:研究文本(Theragatha和Therigatha)使用巴利语,这是一种与佛陀时代俗语(Prakrit)混合的语言,反映了早期佛教传播的语言特征。
  2. 作者争议:
    • 32% Therigatha经文存在作者归属争议(Findly, 1999)
    • 主题差异:Therigatha侧重苦难克服与社会约束(Blackstone, 2013)

相关工作

1. 多语言诗歌分类研究

2. 低资源语言文本分类方法

3. 巴利文本计算分析

数据集与预处理

1. 数据来源与结构

2. 数据预处理

3. 数据统计与清洗

统计指标 天城文 罗马化
总唯一词数 8787 8789
仅 Therigatha 独有词 2239 2242
仅 Theragatha 独有词 5642 5646
两类共有词 906 901

关键发现:两类偈颂的词汇重叠率仅约 10%(天城文 906/8787),暗示分类可能依赖“独有词”而非语义模式。

实验设计

1. 实验设置

2. 模型对比

ROC-AUC
Pasted image 20250305195152.png
Pasted image 20250305195201.png